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La presente invention concerne un procede de traitement automatique 
d'un signal de parole comportant une etape d'alignement entre une moderation 
d'un texte et un signal de parole correspondant a I'elocution de ce texte. 

De tels precedes sont utilises, par exemple, dans le cadre de la syn- 
5 these de parole ou encore de la determination de bases de donnees 
d'apprentissage pour des systernes de reconnaissance vocale. 

En reference a la figure 1, on va decrire un procede de traitement au- 
tomatique de I'etat de Tart dans le cadre de la synthese vocale. 

Ce procede comporte une etape 2 automatique de determination d'une 
10 sequence de modeles probabilistes representative d'un texte donne. 

De maniere classique, les modeles probabilistes utilises sont un nom- 
bre fini de modeles dits « modeles de Markov caches» ou HMM (Hidden Markov 
Model) qui decrivent la probabilite de realisation acoustique d'unites symboliques 
de nature phonologique. 
15 Parallelement a I'etape 2, le procede comporte une etape 4 de deter- 

mination d'une sequence de trames de donnees numeriques correspondant a 
I'elocution du meme texte donne, ou trames acoustiques. 

Le procede comporte ensuite une etape 6 d'alignement entre la se- 
quence de trames acoustiques et la sequence de modeles. 
20 Ainsi, a chaque unite symbolique d'ordre phonolgique representee par 

un ou plusieurs modeles, est associee une sous-sequence de trames acousti- 
ques dite « segment acoustique ». 

Par exemple, ces associations entre une unite symbolique et un seg- 
ment acoustique sont memorisees individuellement afin de permettre ulterieure- 
25 ment la synthese de parole en generant une sequence de trames acoustiques 
correspondant a un autre texte que le texte donne precite. 

Cependant, des variations peuvent apparaitre lors de I'etape 6 
d'alignement resultant notamment de differences entre le signal de parole reelle- 
ment prononce et la sequence de modeles correspondant a une prononciation 
30 theorique. 

En effet, I'etape 2, de determination d'une sequence de modeles, as- 
socie a un texte donne une unique sequence de modele. 

Cependant, I'elocution de ce texte peut donner lieu a differents si- 
gnaux de parole du fait de ('influence du locuteur. Notamment, des unites phone- 
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tiques, ou phonemes peuvent etre associes entre eux comme dans le cas de liai- 
sons, ou encore d'autres phonemes peuvent etre supprimes ou rallonges. 

De telles variations peuvent entramer Tassociation d'un modeie avec 
un segment acoustique errone et/ou decale, introduisant ainsi une erreur 
5 d'alignement dans les segments acoustiques suivants. 

II resulte de ces variations, la necessite d'introduire pour chaque asso- 
ciation entre un segment acoustique et un ou plusieurs modeles, un indice de 
confiance, lors d'une etape 8, qui permet d'attribuer un score probabiliste a cha- 
que association. 

10 Cependant, dans les procedes de I'etat de Tart, ces indices de 

confiance calcules pour chaque modeie ne sont pas d'une grande precision. 

Notamment, ces indices de confiance sont calcules essentieilement a 
partir des probabilites de transition d'un modeie a Tautre. Ainsi, ces indices de 
confiance sont directement calcules pour un segment de trames acoustiques en- 
15 tramant un niveau de precision peu eleve. 

De maniere classique, ces indices de confiance permettent unique- 
ment de rejeter certaines associations qui sont corrigees manuellement par des 
specialistes lors d'une etape 10 de correction longue et couteuse. 

II apparaTt done que dans les procedes de i'etat de Part, la precision 
20 des indices de confiance est insuffisante rendant ainsi les procedes de traitement 
longs et couteux de par la necessite d'interventions humaines de correction. 

Le but de la presente invention est de remedier a ce probleme, en de- 
finissant un procede automatique de traitement comportant un indice de 
confiance de precision accrue. 
25 L'invention a pour objet un procede de traitement automatique d'un 

signal de parole comportant : 

- une etape automatique de determination d'au moins une sequence 
de modeles probabilistes issus d'un repertoire fini de modeies, chaque sequence 
decrivant la probability de realisation acoustique d'une sequence d'unites 
30 symboliques de nature phonologique issues d'un alphabet fini, ladite sequence 
d'unites symboliques correspondant a au moins un texte donne et lesdits 
modeles probabilistes comportant chacun un processus aleatoire observable 
correspondant a la realisation acoustique d'unites symboliques et un processus 
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aleatoire non observable possedant des proprietes probabilistes connues dites 
proprietes de Markov ; 

- une etape de determination d'une sequence de trames de donnees 
numeriques, dites trames acoustiques, representatives de proprietes acoustiques 

5 d'un signal de parole ; 

- une etape d'alignement entre ladite sequence de trames acoustiques 
et ladite sequence de modeles, chaque modele etant associe a une sous- 
sequence de trames acoustiques, formant un segment acoustique, et chaque 
valeur du processus non observable de chaque modele etant associee a une 

10 sous-sequence de trames acoustiques formant un sous-segment acoustique pour 
delivrer une sequence de valeurs de processus non observables associant une 
valeur a chaque trame acoustique, dite sequence alignee ; et 

- une etape de determination d'un indice de confiance d'alignement 
acoustique pour chaque association entre un modele et un segment acoustique, 

15 dit indice de confiance d'alignement de modele et correspondant a une 
estimation de la probability a posteriori du modele etant donne Pobservation du 
segment acoustique correspondant, dite probability de modele a posteriori. 

Chaque etape de determination d'un indice de confiance d'alignement 
pour un modele comprend le calcui de la valeur dudit indice au moins a. partir 

20 d'une combinaison : 

- de la probability d'observation de chaque trame acoustique etant 
donnee la valeur du processus non observable, dite probability de modele et de- 
terminee a partir de proprietes mathematiques connues du modele et de ladite 
sequence de trames acoustiques ; 

25 - de probabiiites de realisation a priori de tous les modeles dudit 

repertoire, independamment les uns des autres, dites probabiiites de modeles a 
priori ; et 

- de ('estimation analytique de la duree moyenne d'occupation des va- 
leurs du processus non observable du modele. 

30 Suivant d'autres caracteristiques : 

- chaque etape de determination d'un indice de confiance acoustique 
pour un modele comporte une sous-etape de determination de ('estimation de la 
probability a priori de chaque valeur du processus non observable du modele, 
dite probability de valeur a priori, realisee a partir de ladite estimation analytique 
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de la duree moyenne d'occupation des valeurs du processus non observable du 
modele ; 

- chaque etape de determination d'un indice de confiance d'atignement 
pour un modele comporte une sous-etape de determination d'un indice de 

5 confiance pour chaque trame acoustique formant le segment acoustique associe 
audit modele et une sous-etape de combinaison des indices de confiance de 
chaque trame dudit segment afin de delivrer ledit indice de confiance dudit 
modele ; 

- chaque sous-etape de determination d'un indice de confiance pour 
10 une trame donnee comporte : 

- une sous-etape de calcul initial combinant la probability de 
modele, la probability de modele a priori du modele en cours et la duree 
moyenne d'occupation des valeurs non observables pour toutes les valeurs du 
processus non observable de ladite sequence alignee et du modele en cours ; 

15 - une sous-etape de calcul du produit de la probability de 

modele, de la probability de modele a priori et de la probability de valeur a priori, 
realisee pour chaque valeur du processus non observable de tous les modeles 
possibles dudit repertoire fini de modeles ; et 

- une sous-etape de sommation de tous lesdits produits 
20 pour tous les modeles possibles dudit repertoire fini de modeles, afin de delivrer 

ledit indice de confiance de ladite trame acoustique donnee a partir des resultats 
desdites sous-etapes ; 

- ladite etape automatique de determination d'une sequence de 
modeles probabilistes correspondant a un texte donne comporte : 

25 - une sous-etape d'acquisition d'une representation 

graphemique dudit texte donne ; 

- une sous-etape de determination d'une sequence d'unites 
symboliques issues d'un alphabet symbolique fini a partir de ladite representation 
graphemique ; et 

30 - une sous-etape automatique de modelisation de ladite se- 

quence d'unites par sa decomposition sur une base desdits modeles probabilis- 
tes afin de delivrer ladite sequence de modeles probabilistes ; 

- ladite sous-etape de modelisation associe un unique modele probabi- 
liste a chaque unite symbolique de ladite sequence d'unites symboliques ; 
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- ladite etape de determination d'une sequence de trames numeriques 

comporte : 

- une sous-etape d'acquisition d'un signal de parole 
correspondant a I'elocution dudit texte donne, adaptee pour delivrer une 

5 sequence d'echantillons numeriques dudit signal de parole ; et 

- une sous-etape d'analyse spectrale desdits echantillons 
pour delivrer une decomposition du spectre frequentiel dudit signal de parole sur 
une echelle non lineaire, ladite decomposition formant ladite sequence de trames 
acoustiques ; 

10 - ladite sous-etape d'analyse spectrale correspond a une sous-etape 

de transformation de Fourier dudit signal de parole, de determination de la distri- 
bution de son energie sur une echelle non lineaire par filtrage, et de transforma- 
tion en cosinus ; 

- ladite etape d'alignement entre ladite sequence de trames 
15 acoustiques et ladite sequence de modeles comporte : 

- une sous-etape de calcul d'une pluralite d'alignements 
possibles chacun associe a un indice de pertinence ; et 

- une sous-etape de selection d'un unique alignement parmi 
ladite pluralite d'alignements possibles ; 

20 - ladite sous-etape de determination d'une pluralite d'alignements pos- 

sibles comprend le calcul d'au moins un alignement optimal, tel que determine 
par un algorithme dit de Viterbi ; 

- il comporte en outre une etape de modification locale de ladite se- 
quence de modeles, en fonction desdits indices de confiance d'alignement de- 

25 termines pour chaque modele de ladite sequence de modeles ; 

- ladite etape de modification locale comprend une sous-etape de sup- 
pression d'un modele de ladite sequence de modeles ; 

- ladite etape de modification locale comporte une sous-etape de subs- 
titution d'un modele de ladite sequence de modeles par un autre modele ; 

30 - ladite etape de modification locale comporte une sous-etape d'inser- 

tion d'un modele entre deux modeles de ladite sequence de modeles ; 

- lesdites etapes d'alignement et de calcul d'un indice de confiance 
sont repetees apres chaque etape de modification locale de ladite sequence de 
modeles ; 
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- ladite etape de determination d'au moins une sequence de modeles 
est adaptee pour la determination d'une sequence de modeles correspondant a 
un texte donne et en ce que ladite sequence de trames acoustiques est 
representative de proprietes d'un signal de parole correspondant a la locution 

5 dudit meme texte donne. 

- ladite etape de determination de sequences de modeles est adaptee 
pour la determination d'une pluralite de sequences de modeles correspondant 
chacun a un texte donne et en ce que ladite sequence de trames acoustiques est 
representative de proprietes d'un signal de parole correspondant a la locution 

10 d'un texte quelconque, ledit procede comportant une etape de selection d'une ou 
plusieurs sequences de modeles parmi ladite pluralite, pour la realisation de la- 
dite etape de determination d'indices de confiance. 

- lesdits modeles sont des modeles dont les processus observables 
sont a valeurs discretes, les valeurs des processus non observables etant les • 

1 5 etats de ces processus ; 

- lesdits modeles sont des modeles dont les processus non observa- 
bles sont a valeurs continues. 

^invention sera mieux comprise a la lecture de la description qui va 
suivre, donnee uniquement a titre d'exemple et faite en se referant aux dessins 
20 annexes, sur lesquels, outre la Fig.1 deja citee representant un organigramme 
d'un procede de traitement automatique de Petat de Tart dans le cadre de la syn- 
thase vocale : 

- la Fig.2 represente un organigramme d'un procede de traitement se- 
lon invention dans le cadre de la synthese vocale ; et 

25 - la Fig.3 represente le detail de signaux specifiques au cours du pro- 

cede decrit en reference a la figure 2. 

Le procede de ['invention decrit sur la figure 2, comporte une etape 20 
de determination automatique d'une sequence de modeles probabilistes repre- 
sentative d'un texte donne. 

30 Dans le mode de realisation decrit, cette etape 20 comporte une sous- 

etape 22 d'acquisition d'une representation symbolique d'un texte donne, telle 
qu'une representation graphemique ou orthographique. 

Par exemple, cette representation graphemique est un texte redige a 
Paide de Palphabet latin, designe par la reference TXT sur la figure 3. 



1er depot 



7 

Le procede comporte ensuite une sous-etape 24 de determination 
d'une sequence d'unites symboliques de nature phonologique d'un alphabet fini, 
a partir de ladite representation graphemique. 

Une telle sequence d'unites symboliques, reperee par la reference U 
5 sur la figure 3, est par exemple composee de phonemes extraits d'un alphabet 
phonetique. 

Cette sous-etape 24 est realisee automatiquement aux moyens de 
techniques classiques de I'etat de I'art, telles que phonetisation ou autres. 

Ainsi, par exemple, le texte « monsieur » en langue frangaise est re- 
10 presente a Tissue de la sous-etape 24, par la sequence d'unites phonetiques : 
[m]-[aHs]-D]-[0]. 

Notamment, cette sous-etape 24 met en oeuvre un systeme de phone- 
tisation automatique utilisant des bases de donnees et permettant de decompo- 
ser n'importe quel texte sur un alphabet symbolique fini. 
15 L'etape 20 comporte ensuite une sous-etape 26 automatique de mo- 

deration de la sequence U d'unites phonetiques par sa decomposition sur une 
base de modeles probabilistes de modeles de Markov caches, couramment desi- 
gnes HMM. 

Dans le mode de realisation decrit, les modeles de la sequence sont 
20 references Hi a H N sur la figure 3 et sont des modeles discrets comportant cha- 
cun un processus aleatoire observable correspondant a une realisation acousti- 
que et un processus aleatoire non observable designe Q et possedant des pro- 
prietes probabilistes connues dites proprietes de Markov, selon lesquelles la re- 
alisation de I'etat futur d'un processus aleatoire ne depend que de i'etat present 
25 de ce processus. 

Ces modeles sont definis prealablement, par exemple a Taide de re- 
seaux neuronaux permettant de determiner I'ensemble de leurs parametres et 
notamment, des probabilites de maintien dans un etat cache donne ainsi que des 
probabilites de transition entre I'etat cache final d'un modele et I'etat cache initial 
30 d'un autre modele. 

Les proprietes mathematiques connues des modeles de Markov per- 
mettent de determiner la probabilite d'observation d'une realisation acoustique 
designee O t , etant donne I'etat du processus non observable Q, dite probabilite 
de modele, notee P m , et correspondant a : 
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Pm-P(Ot\Q t ) 

On rappeile qu'une telle expression est une probability conditionnelle 
et correspond a la probabilite d'observation de la variable aleatoire O t etant 
suppose realise un etat donne Q t du processus aleatoire Q. 
5 Ces modeles de Markov sont issus d'un repertoire fini comportant par 

exemple 36 modeles differents references X\& sont associes aux unites 

symboliques de I'alphabet symboiique cite precedemment. 

Dans le mode de realisation decrit, chaque unite symboiique est asso- 
ciee a un unique modele de Markov cache, de sorte que la sequence U d'unites 
10 phonetiques permet de determiner directement une sequence Hi a H N , notee 
Hi , de modeles de Markov caches decrivant la probabilite de realisation acous- 

tique de la sequence U d'unites symboliques. 

Ainsi, I'etape 20 permet la determination automatique d'une sequence 

H\ de modeles correspondant a la phonetisation automatique d'un texte donne. 

15 Parallelement a I'etape 20 de determination de la sequence H\ de 

modeles, le procede comporte de maniere classique, une etape 40 de determina- 
tion d'une sequence de trames numeriques, dites trames acoustiques, represen- 
tative de proprietes acoustiques d'un signal de parole correspondant a I'elocution 
du texte donne TXT. 

20 Dans le mode de realisation decrit, cette etape 40 comporte une sous- 

etape 42 d'acquisition d'un signal de parole, identifie par la reference s(t) sur la 
figure 3, et correspondant a I'elocution du texte donne TXT. 

Cette sous-etape 42 permet I'acquisition de la forme temporelle du si- 
gnal de parole s(t) lequel est numerise et echantillonne de sorte que la sous- 

25 etape 42 delivre une sequence d'echantillons numeriques du signal de parole 
s(t). 

Ainsi que cela a ete dit precedemment, le signal de parole s(t) est di- 
rectement lie aux caracteristiques d'elocution du locuteur de sorte que des varia- 
tions significatives peuvent apparaitre entre differentes locutions et qu'une plurali- 
30 te de signaux acoustiques peuvent etre consideres comme representatifs du 
meme texte TXT. 
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L'etape 40 comporte ensuite une sous-etape 44 d'analyse spectrale 
des echantillons numeriques du signal de parole s(t) pour en delivrer une decom- 
position du spectre frequentiel. 

De maniere classique, cette analyse spectrale est une analyse dite 
5 «MFCC» (Mel Frequency Cepstrum Coefficient) qui tient compte des proprietes 
non lineaires de la perception auditive et d'une deconvolution entre I'onde acous- 
tique et les caracteristiques de timbre. 

Dans le mode de realisation decrit, cette analyse est realisee sur une 
fenetre glissante de type Hamming dont le resultat forme une sequence, referen- 
10 cee o\ sur la figure 3, de trames acoustiques ou vecteurs acoustiques referen- 
ces d a Ot. 

La sous-etape 44 d'analyse spectrale correspond par exemple a une 
transformation de Fourier du signal de parole s(t), a une determination de la dis- 
tribution de son energie sur une echelle non lineaire par filtrage puis a une' trans- 
15 formation en cosinus. : 

Le procede comporte ensuite une etape 60 d'alignement entre la se- 
quence of de trames acoustiques et la sequence H\ de modeles probabilistes. 

Notamment, cette etape 60 d'alignement permet la selection d'un ali- 
gnement optimal au sens de Talgorithme dit de Viterbi. 
20 Ainsi, cette etape 60 d'alignement comporte une sous-etape 62 de 

calcul d'une pluralite d'alignements possibles, chacun associe a un indice de 
vraisemblance et une sous-etape 64 de selection d'un unique alignement parmi 
ladite pluralite d'alignements possibles. 

De telles techniques d'alignements sont connues de I'etat de Tart et 
25 permettent de delivrer une sequence de trames acoustiques etiquetees de sorte 
que chaque modele H n de la sequence de modeles H\ est associe a une sous- 
sequence 0(H n ) de trames acoustiques formant un segment acoustique. 

De meme, chaque etat du processus non observable Q de chaque 
modele H n est associe a une sous-sequence de trames acoustiques formant un 
30 sous-segment acoustique ainsi que cela est represents en reference a la figure 3. 
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Ainsi, une etiquette de debut et une etiquette de fin sont determinees 
pour chaque segment acoustique 0(H n ) de la sequence o{ , associe a un mo- 
dele H n donne de la sequence . 

Cette etape 60 permet egalement de delivrer une sequence Q ( d'etats 

5 non observable, dite sequence alignee, associant a chaque trame acoustique O t 

un etat non observable donne d'un modele donne, note q x . et correspondant au 

jeme etat de ieme modele de la sequence ainsi que cela est represents sur la 
figure 3. 

Le procede comporte ensuite une etape 80 de determination d'un in- 
10 dice de confiance d'alignement acoustique pour chaque association entre un mo- 
dele H n et un segment acoustique 0(H n ). 

Cet indice de confiance est appele indice de confiance d'alignement 
de modele, note l n , et correspond a une estimation de la probability a posteriori 
du modele etant donne ('observation du segment acoustique correspondant note 
1 5 P mp et correspondant a : 

Pmp^P{H n \0{H n j) 

Dans le cadre de I'invention, chaque etape 80 de determination d'un 
indice de confiance d'alignement l n pour un modele H n est realise a partir d'une 
combinaison : 

20 - de la probabilite d'observation de chaque trame acoustique etant 

donne la valeur du processus non observable du modele correspondant, soit en- 
core la probabilite de modele P m definie precedemment ; 

- de probabilites de realisation a priori de tous les modeles % x a i/du 

repertoire, independamment les uns des autres, dites probabilites de modele a 
25 priori et notees P(^) ; et 

- du temps moyen de sejour sur chacun des etats q l . du modele H n> 

note d [g l j)> calcule a partir de parametres caracteristiques du modele H n et en 
particulier des parametres de transition entre les etats non observables. 
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La probability de modeles P m est determinee a partir des proprietes 
probabilistes connues du modele H n et de la sequence de trames acoustiques 
observee of * 

Les probabilites de modele a priori P sont, par exemple, estimees 

5 prealablement par comptage des occurrences de phonemes a partir de transcrip- 
tions graphemiques et/ou phonetiques. 

Le temps moyen de sejour permet notamment ['estimation de la pro- 
bability a priori de chaque valeur ou etat du processus non observable Q d'un 
modele H n , dite probabilite de valeur a priori notee P vp qui s'exprime sous la 
10 forme de probabilites conditionnelies par : 

Pvp = P(^U/) 

et qui correspond a la probabilite a priori d'etre dans un etat non ob- 
servable donne reference q ^d'un modele Xi donne, note q l . ainsi que cela a ete 
decrit precedemment. 

15 Les sequences etant dans des relations d'ordre tempore!, les probabili- 

tes P vp peuvent etre exprimees de maniere analytique par le ratio entre le temps 

moyen passe sur un etat qK, note d (^), et le temps moyen d'occupation du 

modele z t note d (jLi) et correspondant a la sommes des temps moyens de se- 
jour sur chacun des etats le constituant. 
20 On peut alors ecrire la relation analytique generale suivante : 

En fonction des modes de realisation, le procede de Tinvention peut 
recevoir directement les P vp , par exemple calcules prealablement et stockes dans 

une memoire, ou encore recevoir les estimations d [q l j) de la duree moyenne 

25 d'occupation des etats des processus non observables du modele et effectuer le 
calcul tors d'une sous-etape de determination de la probabilite de valeur a priori 

Pvp- 

II apparaTt alors que Tindice de confiance l n peut s'exprimer selon la re- 
lation suivante : 

30 
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Dans cette relation, q correspond a Pinstant de la sequence alignee 

deiivree a I'issue de la sous-etape 64 et done dans le mode de realisation decrit, 
a une sequence d'etats optimale au sens de Palgorithme de Viterbi s'etendant 
entre les instants t=b(n) et t=e(n) correspondant respectivement au debut et a la 
fin de la sequence d'observation 0(H n )- 

Le terme d (qJ correspondant a la duree moyenne de Petat a Pinstant 
t de la sequence alignee et le terme d (H n ) correspondant a la duree moyenne du 
neme modele de la sequence H\ . i's sont tous deux obtenus a partir de la du- 
ree moyenne d'occupation des etats non observables notee d (gj) de maniere 
generale. 

Enfin, Pindice i permet de parcourir les modeles A { a Xj du repertoire 

de modeles et Pindice j permet de parcourir les etats non observables 1 a J(i) de 
chaque modele. 

Afin de mettre en oeuvre cette relation, Petape 80 comporte une sous- 
etape 82 de calcul initial au cours de laquelle le numerateur de la relation est cal- 
cule pour une trame donnee. 

Au cours de cette sous-etape 82 la probabilite de modele 
P m =P{Ot\Q t ) est combinee avec la probabilite de modele a priori du modele en 

cours P(H n ), la duree moyenne d'occupation de la sequence alignee ~d [qJ et la 

duree moyenne du modele en cours d (H n ). 

L'etape 80 comporte ensuite une sous-etape 84 de calcul du produit 
de la probabilite de modeles P m avec la probabilite de modele a priori P(^) et la 
probabilite de valeurs a priori P vp . Cette sous-etape 84 est realisee pour tous les 
etats non observables de tous les modeles possibles du repertoire fini de mode- 
les. 
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Par la suite, le procede comporte une etape 86 de sommation de tous 
les produits determines precedemment pour tous les modeies possibles X x a Xj 

du repertoire fini de modeies. 

On determine ainsi un indice de confiance pour une trame acoustique 

5 donnee. 

Le procede comporte ensuite une etape 88 de combinaison des indi- 
ces de confiance de chaque trame du segment acoustique donne afin de delivrer 
Pindice de confiance l n du modele H n considere. 

La relation definissant l n peut se ramener a ['equation algorithmique 

10 suivante : 



In = I bog P(O t \Q ( ) + log d (g )- log d (H n ) 

t=b(n) 

+ logP(#J 

15 De ce fait, les sous-etapes 82, 84 et 86 de Petape 80 peuvent etre de- 

crites de maniere algorithmique sous la forme suivante : 

On definit un accumulateur PO puis on effectue les calculs suivants : 
PO = 0; 

Pour chaque modele Zi du repertoire, avec i compris entre 1 et I et 
20 pour chaque etat j du modele A { , avec j compris entre 1 et J(i), on calcule : 

-U) 

po=po + p( 0t \ fyjffiUi) ; 

In = l n + log P(O t \Q ( ) S 

l n = l n +logj(^); 

In = In- log i 

25 l n = In +logP{H„) ; 

ln= In-PO. 

Dans les relations precedentes, la valeur de I'indice precedente l n est 
successivement instanciee a la valeur courante. 
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Avantageusement, le procede comporte ensuite une sous-etape 90 de 
normalisation de I'indice de confiance d'alignement afin de deiivrer un indice de 
confiance normalise par rapport a la duree totale du modele. 

Ainsi, I'etape 80 delivre a partir de la probability de modeles Pm de la 
5 probability de modele a priori P(^) et de la duree moyenne d'occupation des 

etats non observables d [q*) I'indice de confiance d'alignement l n . 

Cet indice de confiance est d'une tres grande fiabilite du fait notam- 
ment qu'il est calcule a partir de probabilites de valeur a priori P vp estimee de 
maniere analytique a partir de la duree moyenne d'occupation des etats du pro- 
10 cessus non observable permettant ainsi de prendre en compte le temps passe 
dans chacun des etats caches et done de prendre en compte les caracteristiques 

temporelles de la sequence de modeles H\ . 

Par la suite, le procede comporte une etape 100 de modification locale 

de la sequence H\ ^ n fonction des indices de confiance d'alignement l n deter- 

15 mines pour chaque modele de la sequence. 

Ainsi, lors de I'etape 100, une decision permettant soit d'accepter soit 

de rejeter un modele est prise pour chaque modele de la sequence H\ • 

Dans le mode de realisation decrit, cette decision est prise automati- 
quement en fonction de la mesure de confiance l n determinee lors de I'etape 80 
20 et d'un point de fonctionnement considere comme un seuil d'acceptation ou de 
rejet du modele. 

Lorsque un modele est rejete, I'etape 100 de modification locale com- 
porte alors alternativement une sous-etape de suppression, de substitution ou 
d'insertion d'un modele. 
25 Ainsi, un ou plusieurs modeles de la sequence de modeles H\* peu- 

vent, manuellement ou automatiquement, etre supprimes, remplaces ou encore 
un ou plusieurs nouveaux modeles peuvent etre intercales entre deux modeles 
de la sequence. 

Avantageusement, la sequence ainsi modifiee est alors utilisee a nou- 
30 veau dans le procede pour etre a nouveau alignee avec la sequence de trames 

acoustiques of lors de I'etape 60 et donner lieu a un nouveau calcul d'un indice 
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de confiance pour chaque association entre un modele et un segment acoustique 
lors de I'etape 80. 

Les etapes 60, 80 et 100 sont reiterees jusqu'a ce qu'il n'y ait plus de 
modele rejete ou encore qu'il n'y ait plus de modifications possibles de sorte que 
5 la sequence de trames etiquetees delivree correspond a la meilleure hypothese 
de decodage possibles. 

II apparaTt done que le procede de ('invention permet la definition d'un 
indice de confiance d'une precision accrue, [-.'utilisation de cet indice permet no- 
tamment d'automatiser Tensemble du procede de traitement d'un signal de pa- 
10 role, de definir des modifications automatiques et d'obtenir un resultat optimise. 

Le procede decrit peut etre mis en oeuvre par des moyens logiciels 
et/ou materiels tels que des ordinateurs, des micro-processeurs, ou tout autre 
equipement adapte. 

Le procede decrit peut par exemple etre utilise dans des systemes de 
15 synthese vocale ou de constitution de bases de donnees d'apprentissage pour 
des systemes de reconnaissance vocale et permet, du fait de ('utilisation d'un 
indice de confiance de grande precision et du rebouclage apres une modification 
automatique, d'obtenir des sequences de trames etiquetees fiables et exploita- 
bles directement sans requerir d'intervention humaine. 
20 Dans le cadre de la synthese vocale, ainsi que cela a ete decrit, la se- 

quence de modeles et la sequence de trames acoustiques correspondent au 
meme texte. 

En variante, le procede de ('invention peut etre utilise dans des syste- 
mes de reconnaissance vocale par exemple pour former des bases de donnees 

25 d'echantillons de reconnaissance ou encore pour permettre de reconnaTtre un 
enonce dans un repertoire de sequences de modeles. 

Par exemple, les sequences candidates de modele predeterminees 
sont alignees successivement avec la sequence de trames acoustiques dite se- 
quence cible et les indices de confiance de chaque modele sont combines sur 

30 I'ensemble de la sequence afin de delivrer une mesure de similitude entre la se- 
quence de modeles et la sequence de trames acoustiques. L'association ayant la 
mesure de similitude la plus elevee est retenue. 
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Alternativement, la sequence selectionnee est obtenue par modifica- 
tion a chaque rebouclage de maniere similaire au mode de realisation decrit pre- 
cedemment. 

Enfin, dans I'exemple decrit, les modeles de Markov caches sont des 
modeles dont les processus non observables sont a etats discrets. Cependant, le 
procede peut egalement etre realise avec des modeles dont les processus non 
observables sont a valeurs continues. 
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REVENDICATIONS 

1. Procede de traitement automatique d'un signal de parole 
comportant : 

- une etape (20) automatique de determination d'au moins une 
sequence (h") de modeles probabilistes (H n ) issus d'un repertoire fini de 

modeles (Z\ a Zj), chaque sequence (h?) decrivant la probabilite de 
realisation acoustique d'une sequence (U) d'unites symboliques de nature 
phonologique issues d'un alphabet fini, ladite sequence (U) d'unites symboliques 
correspondant a au moins un texte donne (TXT) et lesdits modeles probabilistes 
(Ai) comportant chacun un processus aleatoire observable correspondant a la 

realisation acoustique d'unites symboliques et un processus aleatoire non 
observable (Q) possedant des proprietes probabilistes connues dites proprietes 
de Markov ; 

- une etape (40) de determination d'une sequence (of ) de trames de 

donnees numeriques, dites trames acoustiques, representatives de proprietes 
acoustiques d'un signal de parole (s(t)) ; 

- une etape (60) d'alignement entre ladite sequence (of) de trames 
acoustiques et ladite au moins une sequence (h^) de modeles, chaque modele 

(H n ) etant associe a une sous-sequence (0(H n )) de trames acoustiques, formant 
un segment acoustique, et chaque valeur du processus non observable (Q) de 
chaque modele (H n ) etant associee a une sous-sequence de trames acoustiques 
formant un sous-segment acoustique, pour delivrer une sequence (q ) de 

valeurs de processus non observables associant une valeur a chaque trame 
acoustique, dite sequence alignee (q ) ; et 

- une etape (80) de determination d'un indice de confiance (l n ) 
d'alignement acoustique pour chaque association entre un modele (H n ) de la 
sequence et un segment acoustique (0(H„)), dit indice (l n ) de confiance 
d'alignement de modele et correspondant a une estimation de la probabilite a 
posteriori du modele (H n ) etant donne I'observation du segment acoustique 
correspondant (0(H n )), dite probabilite de modele a posteriori (P mp ), 
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caracterise en ce que chaque etape (80) de determination d'un indice 
de confiance d'alignement (l n ) pour un modele (H n ) comprend ie calcui de ia 
valeur dudit indice (l n ) au moins a partir d'une combinaison : 

- de ia probability d'observation de chaque trame acoustique etant 
5 donnee la valeur du processus non observable (Q), dite probability de modele 

(P m ) et determinee a partir de parametres caracteristiques connus du modele 
probabiliste (H n ) ; 

- de probabilites de realisation a priori de tous les modeles dudit 
repertoire independamment les uns des autres, dites probabilites de modele a 

10 priori (PU/)) ; et 

- de ('estimation analytique (<?(^J de la duree moyenne d'occupation 

des vaieurs du processus non observable du modele. 

2. Procede selon la revendication 1, caracterise en ce que chaque 
etape (80) de determination d'un indice de confiance acoustique (l n ) pour un mo- 
15 dele comporte une sous-etape de determination de Testimation de la probability a 
priori de chaque valeur du processus non observable (Q) du modele (H n ), dite 
probability de valeur a priori (P vp ), realisee a partir de ladite estimation analytique 

(rf^J de la duree moyenne d'occupation des vaieurs du processus non obser- 
vable du modele. 

20 3. Procede selon Tune quelconque des revendications 1 ou 2, 

caracterise en ce que chaque etape (80) de determination d'un indice de 
confiance d'alignement (j n ) pour un modele (H n ) comporte une sous-etape de 
determination d'un indice de confiance pour chaque trame acoustique formant le 
segment acoustique associe audit modele (#„) et une sous-etape (88) de 

25 combinaison des indices de confiance de chaque trame dudit segment {o(H n )) 

afin de delivrer ledit indice de confiance (i n ) dudit modele 

4. Procede selon la revendication 3, caracterise en ce que chaque 
sous-etape de determination d'un indice de confiance pour une trame donnee 
comporte : 

30 - une sous-etape (82) de calcul initial combinant la probability de 

modele (P m ), la probability de modele a priori du modele en cours (P(Hn)) et la 
duree moyenne d'occupation des vaieurs non observables pour toutes les 
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valeurs du processus non observable de ladite sequence alignee (Q t ) et du 

modele en cours (H n ) ; 

- une sous-etape (84) de calcul du produit de la probability de modele 
(Pm), de la probability de modele a priori et de la probability de valeur a priori 

5 (P V p), realisee pour chaque valeur du processus non observable (Q) de tous les 
modeles possibles (A l a Zj) dudit repertoire fini de modeles ; et 

- une sous-etape (86) de sommation de tous lesdits produits pour tous 
les modeles (X l a X/) possibles dudit repertoire fini de modeles, afin de delivrer 

ledit indice de confiance de ladite trame acoustique donnee a partir des resultats 
10 desdites sous-etapes (82, 84, 86). 

5. Procede selon Tune quelconque des revendications 1 a 4, caracteri- 
se en ce que il comporte une sous-etape (90) de normalisation des indices de 
confiance par modele (In) en fonction de la duree des modeles. 

6. Procede selon Tune quelconque des revendications 1a 5, 
15 caracterise en ce que ladite etape (20) automatique de determination d'une 

sequence de modeles probabilistes correspondant a un texte donne (TXT) 
comporte : 

- une sous-etape (22) d'acquisition d'une representation graphemique 
dudit texte donne (TXT) ; 

20 - une sous-etape (24) de determination de ladite sequence (U) d'unites 

symboliques a partir de ladite representation graphemique ; et 

- une sous-etape (26) automatique de modelisation de ladite sequence 
(U) d'unites symboliques par sa decomposition sur une base desdits modeles 

probabilistes (X } a Xj) afin de delivrer ladite sequence (H\) de modeles 

25 probabilistes. 

7. Procede selon la revendication 6, caracterise en ce que ladite sous- 
etape (24) de modelisation associe un unique modele probabiliste (H n ) a chaque 
unite symbolique de ladite sequence (U) d'unites symboliques. 

8. Procede selon Tune quelconque des revendications 1 a 7, 
30 caracterise en ce que ladite etape (40) de determination d'une sequence de 

trames numeriques (of) comporte : 
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- une sous-etape (42) d'acquisition d'un signal de parole (s(t)) 
correspondant a I'elocution dudit texte donne (TXT), adaptee pour delivrer une 
sequence d'echantillons numeriques dudit signal de parole (s(t)) ; et 

- une sous-etape (44) d'analyse spectrale desdits echantillons pour 
5 delivrer une decomposition du spectre frequentiel dudit signal de parole (s(t)) sur 

une echelle non lineaire, ladite decomposition formant ladite sequence (of ) de 

trames acoustiques. 

9. Procede selon la revendication 8, caracterise en ce que ladite sous- 
etape (44) d'analyse spectrale correspond a une sous-etape de transformation de 

10 Fourier dudit signal de parole {s(t))> de determination de la distribution de son 
energie sur une echelle non lineaire parfiltrage, et de transformation en cosinus. 

10. Procede selon Tune quelconque des revendications 1 a 9, 
caracterise en ce que ladite etape (60) d'alignement entre ladite sequence (of ) 

de trames acoustiques et ladite sequence (H\ ) de modeles comporte : 

15 - une sous-etape (62) de calcul d'une pluralite d'alignements possibles 

chacun associe a un indice de pertinence ; et 

- une sous-etape (64) de selection d*un unique alignement parmi ladite 
pluralite d f alignements possibles. 

11. Procede selon la revendication 10, caracterise en ce que ladite 
20 sous-etape (62) de determination d'une pluralite d'alignements possibles 

comprend le calcul d'au moins un alignement optimal, tel que determine par un 
algorithme dit de Viterbi. 

12. Procede selon I'une quelconque des revendications 1 a 11, 
caracterise en ce qu'il comporte en outre une etape (100) de modification locale 

25 de ladite sequence de modeles, en fonction desdits indices de confiance 
d'aiignement (l n ) determines pour chaque modele (H n ) de ladite sequence de 

modeles (Hi )■ 

13. Procede selon la revendication 12, caracterise en ce que ladite 
etape (100) de modification locale comprend une sous-etape de suppression d'un 

30 modele de ladite sequence de modeles. 
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14. Precede selon la revendication 12, caracterise en ce que ladite 
etape (100) de modification locale comporte une sous-etape de substitution d'un 
modele de ladite sequence {Hy ) de modeles par un autre modele. 

15. Precede selon la revendication 12, caracterise en ce que ladite 
5 etape (100) de modification locale comporte une sous-etape d'insertion d'un 

modele entre deux modeles de ladite sequence {h^ ) de modeles. 

16. Procede selon Tune quelconque des revendications 12 a 15, 
caracterise en ce que lesdites etapes (60) d'aiignement et de (80) calcul d'un 
indice de confiance sont repetees apres chaque etape (100) de modification 

10 locale de ladite sequence de modeles. 

17. Procede selon Tune quelconque des revendications 1 a 16, 
caracterise en ce que ladite etape (20) de determination d'au moins une 
sequence de modeles est adaptee pour la determination d'une sequence de 
modeles (h^) correspondant a un texte donne et en ce que ladite sequence de 

15 trames acoustiques (o{) est representative de proprietes d'un signal de parole 

(s(t)) correspondant a la locution dudit meme texte donne (TXT). 

18. Procede selon Tune quelconque des revendications 1 a 16, 
caracterise en ce que ladite etape (20) de determination de sequences de 
modeles est adaptee pour la determination d'une pluralite de sequences de 

20 modeles correspondant chacun a un texte donne et en ce que ladite sequence de 
trames acoustiques est representative de proprietes d r un signal de parole 
correspondant a la locution d'un texte quelconque, ledit procede comportant une 
etape de selection d'une ou plusieurs sequences de modeles parmi ladite 
pluralite, pour la realisation de ladite etape de determination d'indices de 

25 confiance. 

19. Procede selon Tune quelconque des revendications 1 a 18, 
caracterise en ce que lesdits modeles (H n ) sont des modeles dont les processus 
observables sont a valeurs discretes, les valeurs des processus non observables 
etant les etats (q ( ) de ces processus. 

30 20. Procede selon Tune quelconque des revendications 1 a 18, 

caracterise en ce que lesdits modeles (H n ) sont des modeles dont les processus 
non observables sont a valeurs continues. 
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